가. 데이터를 설명해주는 데이터로 데이터의 특성, 구조, 정의 및 관리 정보를 설명하는 데이터 나. 데이터를 빠르고 쉽게 찾을 수 있게 해주는 자료 구조
가. 이미 가치가 있을 것이라고 정해진 특정한 정보만 모아서 처리하던 것을 가능한 많은 데이터를 모으고 다양한 방식으로 조합해 숨은 정보를 찾아낸다. 나. 일부 데이터의 샘플링을 통한 표본조사를 수행하는 환경으로 변화되었다. 다. 질보다 양의 관점을 갖는다. 라. 인과관계에 의한 미래 예측이 데이터 기반의 상관관계 분석을 점점 더 압도하는 추세이다.
기존의 논리적인 단계별 접근법에 기반한 문제 해결 방식은 최근 복잡하고 다양한 환경에서 발생하는 문제에 적합하지 않을 수 있다. 이를 해결하기 위해 ( ) 접근법을 통해 전통적인 분석적 사고를 극복하려고 한다. 이 접근법은 상향식 방식의 발산단계와 도출된 옵션을 분석하고 검증하는 하향식 접근방식의 수렴단계를 반복하여 과제를 발굴한다.
공분산행렬 또는 상관계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 변수를 찾는 방법으로, 상관관계가 있는 변수들을 선형 결합에 의해 상관관계가 없는 새로운 변수를 만들고 분산을 극대화하는 변수로 축약하는 방법으로 새로운 변수들은 변수들의 선형결합으로 이루어져 있다.
●●◆●●
여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측 모형을 만든 후 결합하여 최종 예측 모형을 만드는 방법.
완전 연결법이라고도 하며, 두 군집 사이의 거리를 군집에서 하나씩 관측 값을 뽑았을 때 나타날 수 있는 거리의 ( )을 측정한다.